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摘要 : [目的 /意义 ] 针对 竞争 情报 中 企业 战略 情报 的 获取 问题 ， 提 出 一 套 自动 高 效 的 战略 意图 挖 气流 
程 ， 帮 助 企业 更 好 的 收集 战略 情报 信息 ， 提 高 战略 意图 挖掘 的 有 效 性 。 [方法 /过程 ] 引入 实体 关系 抽取 
技术 探索 获取 企业 战略 情报 的 系统 方案 ， 以 企业 并 购 事 件 为 例 ， 应 用 关系 抽取 技术 收集 企业 并 购 关 系 ， 采 
用 实体 属性 抽取 技术 揭示 企业 并 购 的 战略 意图 ， 通 过 阿里 巴巴 集团 的 并 购 事 件 检验 抽取 系统 的 效果 。 [ 结 
果 / 结 论 ] 该 方案 能 够 有 效 地 从 海量 网 络 信息 中 自动 抽取 企业 并 购 关系 并 挖 据 出 企业 经 营 领域 ， 通 过 可 视 
化 地 呈现 揭示 企业 并 购 的 战略 意图 ， 达 到 快速 、 自 动 地 获取 企业 竞争 情报 的 目的 。 
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@5 言 

企业 并 购 目 前 已 然 成 为 中 国 互 联网 公司 的 
主要 趋势 。2015 年 11 月 6 日 ， 阿 里 巴巴 集团 和 
优酷 土豆 集团 共同 宣布 ， 双 方 已 就 收购 优酷 土 
豆 股份 签署 并 购 协 议 ， 阿 里 巴巴 将 拿 出 大 约 45 
亿美 元 现金 收购 优酷 士 豆 。 阿 里 巴巴 是 一 家 电 
子 商务 公司 ， 优 酷 土豆 是 娱乐 视频 公司 ， 阿 里 
巴巴 收购 与 自己 经 营 性 质 不 同 的 优酷 土豆 的 战 
略 意图 是 什么 ? 

互联 网 上 的 公众 媒体 中 存在 着 大 量 的 公开 
言 息 ， 基 于 公开 信息 源 获取 商业 竞争 情报 成 为 


当前 的 研究 热点 。 在 企业 竞争 情报 中 ， 用 户 最 
关心 的 是 竞争 对 手 的 战略 规划 情报 ， 但 这 也 是 
最 难 获取 到 的 。 散 布 在 互联 网 上 的 企业 并 购 事 
件 能 够 在 一 定 程度 上 反映 出 企业 的 战略 规划 ， 因 
此 如 果 能 够 从 纷繁 复杂 的 网 页 中 抽取 企业 并 购 
关系 ， 将 有 助 于 企业 更 全 面 地 剖析 竞争 对 手 的 
战略 意图 ， 达 到 知己 知 彼 的 目的 。 然 而 ， 目 前 
的 研究 大 多 关注 竞争 情报 在 企业 并 购 过 程 中 的 
应 用 "I， 鲜 有 通过 企业 并 购 研 究 竞争 对 手 的 战 
略 意 图 的 研究 。 因 此 ， 从 海量 的 新 闻 网 页 中 抽 
取出 企业 间 的 并 购 关系 ， 揭 示 出 竞争 对 手 的 战 
略 意图 ， 对 于 企业 苋 争战 略 情报 的 获取 具有 十 
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提供 了 动力 , 能 够 让 企业 迈 上 未 来 的 成 功 之 路 。 
简单 来 说 ， 战 略 意图 是 企业 长 期 发 展 想 要 实现 
的 愿景 。 获 取 竞 争 对 手 的 情报 最 常 使 用 的 方法 


企业 并 购 (merger & acquisition) 一 般 是 
指 一 家 企业 用 现金 或 者 有 价 证 券 购买 男 一 家 企 
业 的 股票 或 者 资产 ， 以 增强 企业 本 身 的 竞争 优 
势 ， 实 现 企业 经 营 目 标的 行为 。 企 业 并 购 有 狭 
义 和 广 义 之 分 ， 狭 义 的 并 购 一 般 包括 兼并 和 收 
购 ， 而 广义 的 并 购 除 了 兼并 和 收购 外 ， 还 包括 
其 他 各 种 形式 的 资产 重组 。 
2.1 企业 并 购 与 竞争 情报 

竞争 情报 界 以 研究 企业 并 购 著 名 的 美国 杨 
百 输 大 学 的 PDishman 博士 曾 多 次 公开 强调 :“ 企 
业 并 购 是 一 项 竞争 情报 活动 区 。 我 国 著名 情报 
专家 包 昌 火 指出 : 竞争 情报 是 关于 竞争 环境 、 竞 
争 对 手 与 竞争 策略 的 信息 和 研究 外。 竞争 情报 
是 一 个 过 程 ， 通 过 收集 商业 信息 ， 识 别 和 分 析 
竞争 对 手 的 能 力 、 计 划 、 意 网 、 优 点 和 缺点 ， 转 
化 为 情报 以 辅助 商业 决策 。 企 业 并 购 是 企业 发 
展 过 程 中 最 重要 的 战略 决策 之 一 ， 而 苋 争 情报 
对 于 决策 的 成 败 有 着 至 关 重 要 的 作用 。 

企业 并 购 战 略 属 于 战略 情报 范畴 ， 通 党 是 
由 企业 高 层 制定 ， 需 要 通过 竞争 情报 手段 对 被 
并 购 企业 进行 尽职 调查 ， 确 保 企 业 并 购 的 成 功 。 
在 做 企业 并 购 战 略 规划 的 竞争 情报 调查 时 ， 首 
先 要 明确 自身 的 并 购 需求 ， 还 要 掌握 被 并 购 企 
业 的 背景 与 历史 、 行 业 与 企业 的 营销 方式 、 制 
造 方式 、 财 务 资料 、 研 究 与 发 展 计 划 等 各 种 相 
关 的 问题 。 因 此 ， 企 业 并 购 也 是 一 项 竞争 情报 
活动 。 竞 争 情 报 贯 穿 于 企业 并 购 前 、 并 购 中 和 
并 购 后 的 所 有 过 程 ， 通 过 竞争 情报 分 析 方 法 收 
集 、 分 析 、 和 筛选 和 评估 潜在 的 并 购 目 标 ， 从 而 
为 并 购 战 略 提供 决策 支持 。 
2.2 企业 并 购 的 战略 意图 

企业 并 购 的 目的 是 充分 发 挥 双方 的 经 营 协 
同 效应 、 市 场 份额 效应 等 优势 ， 增 强 企业 自身 
的 市 场 竞 争 力 。 这 也 充分 体现 了 企业 的 发 展 战 
略 意图 。G. Hamel 和 C. K. Prahalad 认为 Rn 
意图 是 : 一 个 雄心 勃勃 的 宏伟 梦想 ， 它 为 企业 


是 收集 竞争 对 手 的 战略 行动 计划 ， 包 括 产 品 研 
发 、 新 业务 开发 和 企业 并 购 等 。 显 然 ， 对 于 获 
取 竞 争 对 手 的 企业 并 购 战 略 来 说 ， 竞 争 对 手 的 
企业 并 购 实 施 就 是 最 好 的 情报 信息 源 。 企 业 收 
购 关 系 是 指 一 个 企业 收购 另 一 个 企业 而 形成 的 
关系 。 通 常 ， 企 业 收 购 关 系 反 映 了 主导 企业 的 
某 些 战略 意图 ， 因 此 对 于 竞争 情报 分 析 至 关 重 
要 。 例 如 ，2014 年 $ 月 ，Google 收购 了 英国 大 
数据 公司 Rangespan， 这 表明 Google 要 通过 大 
数据 技术 强化 其 电子 商务 业务 的 战略 。 

企业 并 购 的 过 程 和 变化 趋势 在 一 定 程 度 上 
反映 了 企业 战略 动态 、 市 场 经 营 倾向 等 信息 。 
如 果 一 个 企业 能 够 获取 其 竞争 对 手 的 企业 并 购 
关系 信息 ， 对 了 解 竞争 对 手 的 经 营 发 展 战略 ， 达 
到 知己 知 彼 以 增强 其 核心 竞争 力 无 疑 大 有 人 神 益 。 
本 文 依据 企业 并 购 的 经 营 协 同 效 应 、 市 场 份 额 
效应 ， 提 出 了 一 种 新 的 基于 实体 关系 抽取 的 方 
法 从 侧面 揭示 出 企业 的 发 展 战 略 意图 。 


全 实体 关系 抽取 


依靠 人 工 收 集 竞争 情报 的 方法 不 再 适用 于 
体 量 激增 的 公开 信息 源 ， 人 迫切 需要 智能 化 的 信 
息 收 集 方法 。 信 息 抽取 技术 应 景 而 生 ， 其 目标 
是 抽取 文本 中 的 重要 信息 并 结构 化 存储 ， 以 便 
进一步 组 织 、 加 工 和 利用 。 实 体 关系 抽取 是 信 
息 抽 取 中 的 核心 任务 ， 其 任务 是 抽取 文本 中 命 
名 实体 之 间 的 关系 ， 例 如 雇佣 关系 、 家 庭 关 系 
和 合作 关系 等 。 实体 关系 抽取 被 广泛 应 用 于 语义 
检索 、 智 能 问答 、 机 器 阅读 等 自然 语言 处 理 领 
域 。 命 名 实体 是 在 第 六 届 消 息 理解 大 会 (Message 
Understanding Conference, MUC6) 上 提出 的 , 其 
目标 是 识别 文本 中 的 具体 实体 ， 例 如 和 人 名、 地 
点 、 组 织 机 构 、 时 间 、 数 值 等 中 。 美 国 国家 标 
准 与 技术 人 研究 院 (National Institute of Standards 
and Technology, NIST) 在 2008 年 自动 内 容 抽 
取 (automatic content extraction, ACE) FEMI J Z 
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KM 
中 定义 了 7 种 实体 关系 类 型 和 18 种 子 类 型 。 

O. Etzioni $ O 将 实体 关系 抽取 的 方法 分 为 
3 类 : 基于 规则 的 方法 、 有 监督 的 方法 和 无 监督 
的 方法 。 

基于 规则 的 方法 就 是 预先 定义 实体 间 关 系 
的 规则 结构 ， 通 过 模式 匹配 抽取 出 实体 关系 。 
C. Aone 等 1 通过 分 析 文 本 的 内 容 特 征 ， 请 领 
域 专 家 编写 实体 关系 的 规则 描述 ， 从 而 抽取 实 
体 间 的 关系 。K. Humphreys 等 由 首先 对 文本 进 
行 大 量 的 关系 规则 分 析 ， 从 中 挑选 出 不 会 产生 
错误 关系 的 规则 来 抽取 实体 关系 。 基 于 规则 的 
方法 要 求 编 写 规则 的 人 对 领域 的 知识 有 深入 的 
了 解 ， 其 优点 是 抽取 速度 快 ， 准 确 率 高 ;缺点 
是 需要 人 工 参 与 规则 的 编写 ， 不 相关 领域 难以 
移植 。 

有 监督 的 方法 是 通过 机 器 学 习 培 训 人 工 标 
注 过 的 语 料 ， 训 练 模型 来 识别 新 文本 中 的 实体 
关系 。 用 于 培训 语 料 的 机 器 学 习 方法 有 基于 核 
函数 方法 (PP! 逻辑 回归 方法 中、 增强 解析 方 
法 中 以 及 条 件 随机 场 方法 "J， 通 过 这 些 方法 
能 够 以 有 监督 的 方式 解决 关系 抽取 的 问题 。 该 
方法 的 缺点 是 需要 花费 大 量 的 时 间 和 精力 标注 
语 料 ， 优 点 是 只 要 有 足够 的 培训 语 料 就 能 够 很 
好 地 适应 其 他 领域 。 

无 监督 的 方法 就 是 通过 领域 独立 的 抽取 模 
式 自 动 地 发 现 和 标注 自己 的 语 料 。KnowItAIHD” 
是 第 一 个 使 用 无 监督 方法 的 信息 抽取 系统 ， 能 
够 大 规模 地 、 领 域 独立 地 抽取 Web 页 面 中 的 关 
系 ， 他 使 用 一 组 通用 的 模式 来 自动 实例 化 特定 
的 关系 抽取 规则 。M. Banko 等 "引入 了 Open 
TE Yash, feih FF we sh Ke A Hh HX Copen relation 
extraction, ORE) 的 概念 ， 开 发 了 TextRunner 
系统 ， 利 用 启发 式 规则 在 宾 州 树 库 中 自动 构建 
规则 ， 实 现 大 规模 的 关系 抽取 。O. Etzioni 等 
根据 动词 短语 识别 关系 的 规则 设计 了 ReVerb 系 
统 ， 优 先 识别 关系 ， 然 后 抽取 出 该 关系 的 左右 
实体 。L.D. Corro 等 "提出 了 ClausIE 系统 ， 用 
依存 语法 解析 器 解析 句子 ， 实 现 关系 抽取 。 无 
监督 的 方法 优点 在 于 不 需要 预先 定义 实体 关系 
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的 类 型 或 规则 ， 从 而 方便 跨 领 域 的 算法 移植 ， 缺 
点 在 于 该 方法 的 抽取 结果 很 依赖 于 语料库 的 质 
量 ， 并 日 会 出 现 无 实际 意义 的 抽取 结果 。 

由 于 互联 网 上 存在 大 量 的 企业 并 购 新 闻 , 需 
要 及 时 地 获取 和 处 理 ， 为 了 免 于 人 工 语义 标注 
和 培训 语 料 ， 同 时 便于 研究 领域 的 移植 ， 本 文 
决定 采用 无 监督 的 方法 抽取 企业 并 购 的 实体 关 
系 。 即 以 动词 为 主 控 词 ， 通 过 Stanford 依存 语 
法 解析 抽取 中 文句 子 中 的 动词 关系 ， 再 找到 动 
词 关系 的 主语 实体 和 宾语 实体 ， 实 现实 体 关 系 
抽取 。 


O 基于 实体 关系 获取 企业 并 购 战略 
情报 

商业 信息 中 的 企业 并 购 关 系 描述 了 企业 实 
体 之 间 由 于 收购 、 兼 并 等 活动 而 形成 的 相互 联 
系 。 企 业 并 购 关 系 是 一 种 浅 层 的 知识 ， 通 过 企 
业 并 购 关系 可 以 从 侧面 了 解 企业 的 某 些 事实 信 
息 。 当 将 相关 的 企业 并 购 关系 组 织 起 来 ， 形 成 
一 个 关联 网 络 时 ， 企 业 并 购 信息 就 会 转化 为 一 
种 有 用 的 竞争 情报 ， 为 企业 的 战略 决策 提供 文 
持 。 本 文 的 主要 研究 工作 就 是 基于 实体 关系 抽 
取 技 术 ， 并 以 互联 网 上 国内 的 企业 并 购 关系 为 
例 ， 设 计 具 体 的 实体 关系 抽取 方案 以 获取 企业 
的 战略 情报 。 
4.1 企业 并 购 关系 抽取 

企业 并 购 关 系 的 抽取 实质 是 抽取 企业 实体 
之 间 的 收购 关系 。 企 业 并 购 关 系 可 用 关系 三 元 
组 <Companyl, Verb, Company2> 表 示 ， 其 
中 Company 1 是 并 购 关 系 的 施 动 者 即 收 购 企 
Mk, Verb 是 并 购 关 系 的 同 义 动 词 ， 如 “兼并 ?” 
“收购 ”“ 购 买 " 等 ，Company2 是 并 购 关系 的 受 
动 者 ， 即 被 收购 企业 。 例 如 句子 “联想 宣布 以 
29 亿美 元 收购 摩托 罗拉 移动 。” 可 以 从 中 抽取 
出 企业 “联想 ”和 “摩托 罗拉 移动 ”之 间 的 并 购 关 
系 < 联 想 ， 收 购 ， 摩 托 罗拉 移动 >。 本 文采 用 
StanfordParser 实 现 对 中 文句 子 的 依存 语法 解析 。 
StanfordParser 是 斯 坦 福 自 然 语言 处 理 小 组 提供 
的 依存 语法 解析 工具 ， 能 够 分 析 句 子 的 语法 结 
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构 ， 支 持 英 语 、 中 文 、 德 语 、 法 语 、 阿 拉 伯 语 
等 语言 。 

将 前 面 的 中 文 例句 经 过 StanfordParser 解 
析 后 产生 依存 关系 有 :nsubj( 宣布 -2, 联想 -1), 
root(ROOT-0， 宣 布 -2), prep( 收 购 -6， 以 -3), 
nummod( 美元 -5, 29 亿 -4), pobj( 以 -3, 美元 -5), 
ccomp( 宣 布 -2, 收购 -6), nn( 移动 -8, 摩托 罗拉 -7)， 
dobj( 收购 -6, 移动 -8), xsubj( 收购 -6, 联想 -1)。 
为 了 直观 显示 句子 中 各 词语 之 间 的 依存 关系 ， 面 
出 语法 依赖 图 ， 如 图 1 所 示 : 


xsubj 


cco! dobj 


D 
Root prep 
nsubj nummod nn 


联想 ”宣布 以 29 亿 美元 收购 摩托 罗拉 移动 
NR VV oP CD M VV NR NN 


图 1 一 条 企业 并 购 中 文句 子 的 依存 解析 实例 


可 以 看 到 主 控 词 动词 有 两 个 :“ 宣 布 ? 和 “ 收 
WW”, “宣布 "只 有 一 个 主语 关系 “nsubj- 联想 ”， 没 
有 宾语 关系 ;“ 收 购 径 有 主语 关系 :xsubj- 联想 ”又 
有 宾语 关系 “dobj- 移动 ”， 所 以 得 到 一 个 关系 为 
< 联想 ， 收 购 ， 移 动 >。 但 这 显然 还 未 完成 ,“ 移 
动 "并 不 等 于 "摩托 罗拉 移动 "。 所 以 还 要 考虑 名 
词 之 间 的 强 修饰 关系 “nn- 摩托 罗拉 ”， 得 到 最 终 


公司 名 称 摩托 罗拉 移动 控股 公司 
外 文 名 称 Motorola Mobility Holdings 
总 部 地 点 美国 芝加哥 
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的 关系 抽取 结果 < 联想 , 收购 ,摩托 罗拉 移动 >。 
4.2 企业 属性 关系 抽取 

从 企业 并 购 关系 < 联想 ， 收 购 ， 摩 托 罗 拉 
移动 > 中 可 以 得 到 一 个 事实 “联想 收购 了 摩托 罗 
拉 移 动 "， 但 意图 是 什么 ?还 不 是 很 明了 。 经 过 
对 企业 本 身 的 属性 研究 ， 企 业 并购 的 战略 意图 
可 以 通过 企业 所 并 购 公司 的 经 营 范围 来 揭示 。 
例如 ， 摩 托 罗 拉 移 动 的 经 营 范围 是 智能 手机 ， 因 
此 我 们 可 以 大 概 了 解 到 联想 收购 摩托 罗拉 移动 
的 战略 意图 是 要 近 一 步 加 强 在 智能 手机 方面 的 
竞争 能 力 。 为 了 进一步 挖掘 企业 并 购 的 战略 意 
图 ， 还 需要 将 被 并 购 企业 的 经 营 范围 或 服务 领 
域 找 出 来 ， 为 此 本 文 将 被 并 购 企 业 进行 实体 链 
接 到 百度 百科 中 的 词 条 信息 。 这 样 做 有 两 个 好 
处 ， 一 是 验证 所 抽取 到 的 被 并 购 企 业 是 否 是 真 
实 存在 的 企业 实体 ， 二 是 获取 到 该 企业 实体 的 
经 营 范围 属性 信息 。 
HERP! 是 一 部 内 容 开 放 、 自 由 的 网 络 
百科 全 书 ， 旨 在 创造 一 个 涵盖 所 有 领域 知识 ， 服 
务 所 有 互联 网 用 户 的 中 文 知识 性 百科 全 书 。 但 
是 百度 百科 还 没有 开放 免费 的 API， 不 支持 后 台 
直接 查询 词 条 信息 ， 只 能 在 前 台 依 靠 模式 匹配 
的 方法 将 企业 词 条 信息 框 中 的 “经 营 范围 "提取 
出 来 ， 如 图 2 所 示 : 


成 立时 间 2011 年 1 月 
BS = So 智能 手相 
员工 数 3500 


ces Network Sources Timeline Profiles Audits Console 


“sy aU 


<dt class="basicInfo-item name" /dt> 


r<dd class="basicInfo-item Value "> 


</dd> 


首先 ， 通 过 编程 模拟 URL 查询 百科 的 词 
条 搜索 ， 定 位 到 该 企业 的 详细 页 面 ， 然 后 用 
HTMLParser 工具 抓 取 该 网 页 到 本 地 并 解析 成 
DOM 树 ， 最 后 通过 遍历 该 页 面 的 DOM 树 获取 


<a target="_blank" href="/view/535. htm"| 智 能 手机 | /a> } 


“| | Styles | Comp 


element.styl 


hadvuewesnne 


图 2 百度 百科 的 信息 框 属性 


到 经 营 范围 的 值 “ 智 能 手机 ”。 在 实际 的 抽取 当 
中 ， 有 的 词 条 信息 框 并 没有 “经 营 范围 "属性 ， 可 
以 考虑 近 义 的 信息 属性 项 ， 如 “所 属 行 业 ”“ 服 务 
范围 "等 。 
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4.3 并 购 关 系 抽取 技术 架构 
根据 以 上 的 企业 并 购 关 系 和 属性 关系 的 抽 
取 策 略 ， 基 于 垂直 搜索 和 实体 关系 抽取 技术 ， 构 


ChinaXiv 合 作 期 刊 


建 了 企业 并 购 关系 战略 意图 揭示 系统 ， 其 技术 
架构 主要 分 为 数据 准备 、 信 息 采 集 、 信 息 处 理 、 信 
息 抽 取 和 意图 揭示 5 层 ， 如 图 3 所 示 : 


HAW 网 页 抓 取 正文 抽取 中 文 分 词 

j ® ECharts 

句子 拆 分 词性 标注 
Sra RRR == ae 

特征 提取 依存 解析 

a | oe 并 购 关系 
候选 句子 关系 抽取 

| 


Bailar 


4.3.1 数据 准备 

利用 百度 的 网 站 垂直 搜索 功能 ， 从 新 浪 科 
技 新 闻 频 道 检索 与 研究 主题 相关 的 新 闻 ， 再 从 
结果 列表 中 模式 匹配 出 新 闻 的 URL 以 备用 。 由 
于 后 期 需要 从 百度 百科 中 匹配 出 企业 实体 的 经 
营 领 域 , 该 阶段 也 需要 实现 对 相关 词 条 的 检索 。 
4.3.2 信息 采集 

用 网 页 抓 取 工具 加 载 数 据 准 备 阶段 解析 出 的 
相关 新 闻 URL 列表 , 提取 相关 网 页 的 HTML 文本。 
4.3.3 信息 处 理 

主要 完成 对 抓 取 到 的 网 页 进行 清洗 加 工 的 
任务 。 包 括 : 中 正文 抽取 是 抽取 文章 中 的 正文 
内 容 ， 过 滤 掉 与 新 闻 报 道 正 文 不 相干 的 噪音 信 
息 ， 如 超 链 接 、 评 论 等 ，@@ 句 子 拆 分 即将 整 篇 
文章 拆 分 成 一 个 个 的 句子 ， 久 特征 提取 即 根据 
研究 主题 提取 有 特征 的 词语 ， 如 并 购 、 兼 并 、 收 
购 等 ， 由 候选 句子 即 通过 特征 词 将 所 需要 抽取 
的 主题 句子 筛选 出 来 。 
4.3.4 信息 抽取 

主要 抽取 企业 实体 之 间 的 并 购 关系 。 包 
括 : 中 中 文 分 词 即 将 主题 名 进行 中 文 分 词 ， 便 
于 进行 自然 语言 处 理 ，@ 词 性 标注 即 标注 名 
子 中 每 个 词语 的 词性 ， 思 依存 解析 即 通 过 
StanfordParser 对 主题 句 进行 依存 句法 解析 ， 得 
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图 3 网 络 监督 情报 预警 系统 技术 架构 


到 各 个 词语 之 间 的 依存 关系 ; ORAM, 4 
据 动词 关系 抽取 企业 实体 之 间 的 并 购 关系 ， 再 
根据 被 并 购 的 企业 实体 ， 通 过 信息 采集 的 信息 
抓 取 功能 ， 获 取 百 度 百 科 中 的 经 营 属性 关系 。 
43.5 意图 揭示 

通过 并 购 关系 和 经 营 关系 ， 为 企业 提供 经 
过 总 结 的 有 和 针对 性 的 竞争 情报 分 析 报 告 ， 经 过 
Echarts 可 视 化 工具 呈现 , 达到 辅助 决策 的 目的 。 


全 示 统 实现 


本 企业 并 购 情 报 收 集 系统 框架 采用 MVC 
设计 模式 实现 三 层 体系 结构 : 中 客户 端 用 户 界 
面 使 用 Jsp+Echarts 技术 ， 实 现 战略 意图 的 可 
视 化 呈现 ; 思 应 用 服务 器 端 以 Tomcat+Spring 
Framework 作 软 件 支 持平 台 ， 使 用 java 编程 语 
言 实现 系统 的 情报 采集 、 关 系 抽取 和 属性 挖掘 
等 功能 ，@ 数 据 库 服务 器 端 采 用 MySQL 5.7， 它 
不 仅 具 有 数据 仓库 功能 ， 而 且 支 持 json， 能 够 
实现 对 关系 三 元 组 数据 的 存储 和 集成 。 

5.1 抽取 并 购 关 系 

实验 的 数据 集 采 用 百度 搜索 采集 ， 通 过 
百度 的 网 站 搜索 功能 检索 新 浪 科 技 频道 的 新 
闻 ， 检 索 词 式 为 "阿里 巴巴 + 收购 >， 得 到 1200 
篇 相关 报道 的 网 址 。 用 本 系统 加 载 网 址 抓 取 网 
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DL, WREX, EREA FF Si FFP 
Ke oh i APE WY eae AIF 1066 句 ， 然 后 利用 
StanfordParser 解析 这 些 句子 从 而 提取 企业 并 购 
关系 。 再 从 得 到 的 关系 集中 去 除 主语 不 全 阿里 的 
关系 以 及 含有 “或 将 “ 欲 * 疑 "等 词 的 不 确定 并 购 
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关系 。 将 这 些 关 系 的 宾语 链接 到 百度 百科 进行 
实体 识别 ， 并 挖掘 其 所 对 应 的 “经 营 范围 或 服务 
范围 "属性 ， 形 成 新 的 企业 属性 关系 。 最 后 将 抽 
取 的 并 购 关系 和 属性 按 json 格式 输出 成 节点 和 
关系 数据 集 ， 如 图 4 所 示 : 


| © Console xla Javadoc ig) Problems B Declaration A Search Se Call 四 
| <terminated> CnExtractor [Java Application] D:\Java\jdk1.7.0_25\bin\javaw.exe (2015 年 12 月 


| 节点 : 
{category:0, 
|{category:1, 
|{category:2, 
_{category:1, 
|{category:2, 
{category:1, 
\{category:2, name: 
|{category:1, 
|{category:2, 
{category:1, 
|{category:2, 
| {category:1, 
| {category:2, 
{category:1, 


name: , value : 
name: '##', value : 
name: » value : 
name: “雅虎 " value : 


name: “阿里 巴巴 " value : 5}, 

name: “ 榆 海源 " value : 3}, 

name: “计算 机 软 硬 件 技术 开发 Bia, ARS ,销售 " value : 2}, 
name: '365@i%', value : 3}, 

name: “笔译 口译 听 译 本 地 化 定制 服务 " value : 2}, 
name: “优酷 土豆 " value : 3}, 

“网络 视 频 " ，value : 2}, 

name: “高 德 " value : 
name: “向 移动 互联 网 转型 ' value : 2}, 
name: “ 优 视 科技 " value : 3}, 


3}, 


2}, 
3}, 
2}, 
3}, 


© Console 5 | @ Javadoc |f) Problems 加 Declaration 4? Search $e Call Hierarchy © % 


<terminated> CnExtractor [ava Application] D:\Java\jdk1.7.0_25\bin\javaw.exe (2015712578 下 午 4:23:C 


{category:2, name: “软件 value : 


关系 : 

{source : 
{source : 
{source : 
{source : 
{source : 
{source : 
{source : 
{source : 
{source : 
{source : 
{source : 
{source : 
{source : 
{source : 
{source : 


"阿里 巴巴 '，target : 
“办 海源 " target : 

“阿里 巴巴 " target : 
‘365giz', target : 
"阿里 巴巴 " ，target : 
“优酷 土豆 " target : 
“阿里 巴巴 " target : 
“高 德 " target : 


“阿里 巴巴 " ，target : 


“阿里 巴巴 " target : 
‘m@', target : '' 
"阿里 巴巴 " ，target : 
"Hée', target : 
“阿里 巴巴 " target : 


从 图 4 中 可 以 看 到 有 空 值 ， 这 是 因为 从 百 
度 百 科 中 挖掘 不 出 相应 的 经 营 范围 属性 值 ， 这 
时 需要 人 工 添 加 补足 。 同 时 还 要 处 理 很 多 重复 
的 关系 ， 最 后 余下 24 条 企业 并 购 关 系 和 24 条 


2}, 


“ 输 海 源 " weight : 1}, 
"计算 机 软 硬 件 技术 开发 ,咨询 服务 ,销售 " ，weight : 1}, 
“ 365 翻译 " weight : 1}, 

"笔译 口译 听 译 本 地 化 定制 服务 " weight : 1}, 
"优酷 土豆 " ，weight : 1}, 

"网 络 视频 " ，weight : 1}, 

"高 德 "' weight : 1}, 
“向 移动 互联 网 转型 ' weight : 1}, 
" 优 视 科 技 '，weight : 1}, 
" 优 视 科技 "'，target : '', weight : 1}, 

‘M&', weight : 1}, 
» weight : 1}, 

"雅虎 " ，weight : 1}, 
“因特网 导航 服务 的 网 站 " ， weight : 1}, 
‘igh’, weight : 1}, 


图 4 企业 并 购 实体 关系 抽取 结果 


属性 关系 。 

根据 互联 网 行业 分 类 将 “经 营 范围 "进一步 
规范 为 相应 的 行业 领域 ， 得 到 被 并 购 企业 的 行 
业 领 域 情况 ， 如 表 1 所 示 : 
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表 1 被 并 购 企 业 所 属 领域 统计 


并 购 企业 经 营 范围 所 属 领 域 购 数目 〈 个 ) 
输 海 源 计算 机 软 硬 件 技术 开发 , 咨询 , 服务 , 销售 软件 开发 7 
优 视 科技 移动 互联 网 软件 技术 及 应 用 服务 提供 商 软件 开发 
友 盟 移动 开发 者 服务 平台 软件 开发 
擎 天 科技 软件 软件 开发 
egoi 票务 电影 行业 软件 软件 开发 
Auctiva 销 管理 工具 软件 软件 开发 
PHOWind 通用 型 论坛 程序 软件 开发 
优酷 土豆 网 络 视频 娱乐 传媒 5 
文化 中 国 文化 传媒 娱乐 传媒 
虾米 网 与 众 不 同 的 音乐 分 享 平台 娱乐 传媒 
恒 大 足球 职业 足球 娱乐 传媒 
南华 早报 英文 报纸 娱乐 传媒 
口碑 网 评论 分 享 、 消 费 指 南 ABR 4 
新 浪 微 博 网 络 信 息 服务 信息 聚合 
Zulily 母 婴 用 品 团购 BARA 
CNZZ 中 国 互联 网 最 影响 力 流 量 统计 网 站 FARA 
酷 盘 网 盘 文 件 管理 及 备份 云 计算 2 
Vendio SaaS 〈 软 件 即 服务 ) 提供 商 云 计算 
雅虎 因特网 导航 服务 的 网 站 言 息 搜 索 1 
天 宇 朗 通 手机 专业 销售 服务 手机 通讯 1 
达 通 物流 企业 服务 物流 1 
高 德 移动 地 图 导航 地 图 导航 1 
365 翻译 笔译 口译 听 译 本 地 化 定制 服务 教育 服务 1 
天 弘 基 金 基金 / 证券/ 期货 /投资 金融 1 
5.2 战略 意图 揭示 色 球 点 为 被 收购 企业 的 行业 领域 。 可 以 看 出 ， 软 


本 系统 实现 了 根据 关系 抽取 和 属性 挖掘 处 件 开 发 、 娱 乐 传媒 和 信息 聚合 是 阿里 巴巴 收购 
理 后 的 结果 生成 可 视 化 报告 ， 以 便 进 行 战略 意 的 重点 行业 领域 ， 其 次 是 云 计 算 、 信 息 搜索 、 教 
图 分 析 。 如 图 5 能 够 很 好 地 揭示 阿里 巴巴 收购 AMRS EEN. 
企业 公司 的 意图 。 其中， 粉色 的 球 点 为 被 收购 再 将 阿里 巴巴 所 并 购 企 业 的 行业 领域 用 饼 图 
的 企业 ， 绿 色 球 点 为 被 收购 企业 的 经 营 范围 , 红 呈现, 得 到 如 图 6 所 示 的 企业 并 购 领域 分 析 饼 图 : 
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œ 软件 开发 
> 娱乐 传媒 
œ RERA 
> 云 计算 
> 信息 搜索 
> 地 图 导航 
> SARS 
œ 2i 
œ pi 


软件 开发 7 (29.17%) 


娱乐 传媒 : 5 (20.83%) 


图 5 企业 并 购 战略 意图 揭示 


企业 并 购 领 域 分 析 A EKAR 


经 营 领域 


物流 :1(4.17%) 
金融 : 1(4.17%) 
手机 通讯 : 1 (4.17%) 


“一 教育 服务 : 1 (4.17%) 
地 图 导航 : 1 (4.17%) 
信息 搜索 : 1 (4.17%) 


一 一 云 计算 :2 (8.33%) 


信息 聚合 : 4 (16.67%) 


图 6 企业 并 购 领域 分 析 
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可 以 看 出 ， 阿 里 巴巴 的 战略 意图 大 体 可 以 
分 为 3 个 目标 : 

(1) 构建 多 元 化 电 商 业务 生态 体系 。 从 
并 购 企业 的 所 属 行业 领域 来 看 ， 为 了 实现 成 为 
全 世界 最 大 电子 商务 服务 提供 商 的 整体 战略 愿 
景 ， 阿 里 巴巴 并 购 了 其 核心 业务 发 展 所 需要 的 
10 个 相关 领域 ， 包 括 软 件 开 发 、 娱 乐 传媒 、 信 
息 聚 合 、 物 流 及 金融 等 ， 意 在 将 阿里 巴巴 的 影 
响 延 伸 到 每 个 用 户 。 通 过 多 元 化 的 并 购 ， 既 可 
以 进行 技术 整合 ， 又 能 够 通过 垄断 市 场 人 口 建 
立 一 个 多 元 化 发 展 的 电 商 业务 生态 体系 。 

(2) 打造 大 数据 分 析 云 平台 服务 能 力 。 
在 大 数据 战略 上 ， 阿 里 巴巴 收购 了 7 家 能 够 进 
行 大 数据 分 析 的 软件 开发 公司 和 2 家 云 计算 公 
司 ， 以 数据 为 中 心 ， 通 过 对 用 户 商 业 核心 数据 
和 行为 数据 的 挖掘 ， 找 到 战略 投资 方向 ， 进 而 
形成 涵盖 用 户 日 常生 活 、 商 业 、 社 交 、 学 习 等 
领域 的 数据 收集 和 汇总 的 生态 体系 ， 最 终 以 阿 
里 云 平台 为 承接 平台 ， 建 立 起 围绕 用 户 多 方面 
需求 的 电 商 业务 生态 圈 。 

(3) 跨 界 布局 020 商业 模式 。 阿 里 巴巴 
转变 其 纯 电 商 的 思维 方式 ， 通 过 跨 界 收购 优酷 
土豆 视频 网 站 、 信 息 聚 合 和 娱乐 传媒 等 O20 F 
台 ， 既 可 以 吸纳 互联 网 用 户 流 量 ， 也 可 以 收集 
丰富 的 用 户 行为 数据 资源 ， 同 时 ， 利 用 大 数据 
挖掘 用 户 行为 数据 可 以 为 投放 商业 广告 奠定 基 
fi. O20 即 Online to Offline， 是 指 让 互联 网 成 
为 线 下 交易 的 平台 。 阿 里 巴巴 发 展 020 商业 模 
式 一 方面 可 以 辅助 支撑 电 商 平台 ， 男 一 方面 更 
是 为 了 拓展 全 新 的 和 鱼 利 模式 , 保证 其 核心 苋 争 。 


@ 结 语 


随 着 企业 竞争 的 加 剧 ， 为 了 寻求 长 期 发 
展 ， 多 元 化 经 营 成 为 企业 可 持续 发 展 的 一 个 战 
略 。 阿 里 巴巴 集团 作为 一 家 日 益 壮 大 的 电子 商 
务 公司 ， 通 过 企业 并 购 发 展 战略 ， 实 现 多 元 化 
的 互联 网 O20 商业 模式 。 本 文通 过 从 海量 信息 
中 自动 获取 、 挖 掘 阿 里 巴巴 收购 的 情报 信息 ， 揭 
示 其 进行 企业 并 购 的 战略 意图 ， 为 我 国企 业 的 
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苋 争 情报 收集 方法 提供 借鉴 。 该 方法 可 以 解决 
以 往 情 报 服 务 中 只 注重 实体 术语 ， 而 忽视 实体 
间 关 系 的 不 足 ， 将 苋 争 情报 分 析 从 传统 的 自动 
分 类 、 主 题 挖掘 等 分 析 方 法 深入 到 语义 挖掘 层 
面 ， 围 绕 实体 之 间 的 关系 自动 获取 战略 情报 信 
息 ， 并 提供 战略 意图 的 可 视 化 呈现 ， 方 便 企 业 
情报 部 门 快速 获取 竞争 情报 。 

当然 该 系统 方案 不 可 避免 地 存在 需要 进 
一 步 完 善 的 方面 。 例 如 ， 企 业 实体 及 其 属性 的 
抽取 精度 有 竺 进一步 提高 ， 由 于 其 表达 方式 多 
样 、 规 律 性 差 ， 还 需 提 出 更 好 的 解决 方案 。 可 
以 增加 对 于 时 间 和 收购 金额 的 抽取 ， 丰 富 企业 
并 购 的 语义 信息 。 还 可 以 建立 完善 的 领域 知识 
库 ， 如 规范 的 企业 机 构 及 其 属性 信息 ， 能 为 实 
体 的 一 致 化 处 理 提 供 完 备 的 信息 。 
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Abstract: [Purpose/significance] This paper proposes an automatic and efficient mining process of the 
strategic intent for the acquisition issues of enterprise strategic intelligence in competitive intelligence, 
and guides the enterprises to gather strategic intelligence information and improve the effectiveness of the 
strategic intent mining. [Method/process] This paper explored the system solution of enterprise strategic 
intelligence acquisition by introducing the technology of entity relation extraction. Then it took enterprise 
merger events as examples, applied the relation extraction technology to collect the enterprise merger and 
acquisition relation and revealed the strategic intent of enterprise mergers and acquisitions by entity attribute 
extraction, and verified the effectiveness of the extraction system through the merger and acquisition cases 
of Alibaba Group. [Result/conclusion] This solution can efficiently and automatically extract the enterprise 
merger and acquisition relation from massive web information and mine enterprises business areas. Through 
the visual technique to reveal the strategic intents of enterprise mergers and acquisitions, the purposes of 
automatic and fast acquisition of enterprise competitive intelligence are achieved. 

Keywords: entity relation relation extraction mergers and acquisitions strategic intent competitive 
intelligence 


